arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日__

arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日

可下载资源数量

已经购买

下载数量：1

单价	0 4.0
Coupon	100% 0%
Total	0 4.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arXiv:2501.07927v1 [cs.LG] 2025 年 1 月 14 日

¥ 4.0

热度

目前对大型语言模型 (LLM) 应用程序中针对即时攻击的防御的评估通常忽略了两个关键因素：对抗行为的动态性质以及限制性防御对合法用户施加的可用性惩罚。我们提出了 D-SEC（动态安全效用威胁模型），该模型明确将攻击者与合法用户分开，对多步骤交互进行建模，并以可优化的形式严格表达安全效用。我们通过引入 Gandalf 进一步解决了现有评估中的不足之处，Gandalf 是一个众包、游戏化的红队平台，旨在生成逼真的自适应攻击数据集。使用 Gandalf，我们收集并发布了 279k 次即时攻击的数据集。结合良性用户数据，我们的分析揭示了安全性和实用性之间的相互作用，表明 LLM 中集成的防御措施（例如系统提示）即使不阻止请求也会降低可用性。我们证明，受限应用程序域、纵深防御和自适应防御是构建安全且有用的 LLM 应用程序的有效策略。代码可在 https://github.com/lakeraai/dsec-gandalf 获得。

添加pdf代下载 VIP点击下载文件